在无法明确计算系统状态(例如操纵可变形物体)的应用程序中,视觉动作计划特别出色,因为它可以直接从原始图像中进行计划。尽管深度学习技术已经显着加速了该领域,但其成功的关键要求是大量数据的可用性。在这项工作中,我们建议在数据稀缺的情况下实现视觉行动计划,以实现视觉行动计划。我们建立在潜在的空间路线图(LSR)框架上,该框架通过在低维潜在空间中建造的图表执行计划。特别是,ACE用于i)通过自动创建新的数据点来增强可用培训数据集,ii)在潜在图中的状态表示之间创建新的未观察到的连接;方式。我们在模拟框堆叠和现实世界折叠任务上验证了所提出的方法,分别显示了刚性和可变形的对象操纵任务的适用性。
translated by 谷歌翻译
我们为具有高维状态空间的复杂操纵任务的视觉动作计划提供了一个框架,重点是操纵可变形物体。我们为任务计划提出了一个潜在的空间路线图(LSR),这是一个基于图的结构,在全球范围内捕获了低维潜在空间中的系统动力学。我们的框架由三个部分组成:(1)映射模块(mm),该模块以图像的形式映射观测值,以提取各个状态的结构化潜在空间,并从潜在状态产生观测值,(2)LSR,LSR的LSR构建并连接包含相似状态的群集,以找到MM提取的开始和目标状态之间的潜在计划,以及(3)与LSR相应的潜在计划与相应的操作相辅相成的动作提案模块。我们对模拟的盒子堆叠和绳索/盒子操纵任务进行了彻底的调查,以及在真实机器人上执行的折叠任务。
translated by 谷歌翻译
A significant drawback of eXplainable Artificial Intelligence (XAI) approaches is the assumption of feature independence. This paper focuses on integrating causal knowledge in XAI methods to increase trust and help users assess explanations' quality. We propose a novel extension to a widely used local and model-agnostic explainer that explicitly encodes causal relationships in the data generated around the input instance to explain. Extensive experiments show that our method achieves superior performance comparing the initial one for both the fidelity in mimicking the black-box and the stability of the explanations.
translated by 谷歌翻译
大多数最先进的定位算法都依赖于稳健的相对姿势估计和几何验证来获得移动的对象不可知的摄像机在复杂的室内环境中姿势。但是,如果场景包含重复的结构,例如书桌,桌子,盒子或移动的人,则这种方法容易犯错。我们表明,可移动对象包含了不可忽略的本地化误差,并提出了一种新的直接方法,以预测六度自由(6DOF)更加坚固。我们为定位管道INLOC配备了实例分割网络yolact ++。动态对象的口罩用于相对姿势估计步骤和摄像头姿势建议的最终分类中。首先,我们过滤出放置在动态对象的掩模上的匹配。其次,我们跳过了与移动对象相关的区域上查询和合成图像的比较。此过程导致更强大的本地化。最后,我们描述并改善了由合成图像和查询图像之间的基于梯度的比较引起的错误,并发布了新的管道,以模拟MatterPort扫描中具有可移动对象的环境。所有代码均可在github.com/dubenma/d-inlocpp上获得。
translated by 谷歌翻译
分布语义是对含义变化和通过语料库变化的定量研究,目前是计算语言学中生产力最高的研究领域之一。近年来,大数据和可再现算法的更广泛可用性促进了其对生活语言的应用。但是,我们可以使用分布语义来研究像古希腊这样有限语料库的语言吗?这种方法能否告诉我们一些关于诸如荷马诗的语言和组成的古典研究中这种烦恼问题的信息?我们的论文将比较涉及古希腊语史诗中透射动词的公式的语义灵活性与非格式液体语料库中的类似动词短语,以检测公式中的独特变化模式。为了解决这个问题,我们提出了Agvalex,这是一种从古希腊依赖树库中自动提取的古希腊的计算价词典。词典包含有关动词及其论点的定量语料库驱动的形态,句法和词汇信息,例如对象,主体和介词短语,并且在古希腊作者的语言研究中有广泛的应用。
translated by 谷歌翻译
我们介绍了Net2Brain,这是一种图形和命令行的用户界面工具箱,用于比较人工深神经网络(DNNS)和人脑记录的代表空间。尽管不同的工具箱仅促进单个功能或仅关注一小部分监督图像分类模型,但Net2Brain允许提取600多个受过培训的DNN的激活,以执行各种视觉相关的任务(例如,语义段,深度估计,深度估计,深度估计,深度估计,估计,深度率,在图像和视频数据集上均具有动作识别等)。该工具箱在这些激活上计算代表性差异矩阵(RDM),并使用代表性相似性分析(RSA),加权RSA(在特定的ROI和探照灯搜索中)将其与大脑记录进行比较。此外,可以在工具箱中添加一个新的刺激和大脑记录数据集以进行评估。我们通过一个示例展示了如何使用Net2Brain的功能和优势来检验认知计算神经科学的假设。
translated by 谷歌翻译
自动驾驶(AD)相关功能代表了下一代移动机器人和专注于越来越智能,自主和互连系统的自动驾驶汽车的重要元素。根据定义,必须提供涉及使用这些功能的应用程序,并且此属性是避免灾难性事故的关键。此外,所有决策过程都必须需要低功耗,以增加电池驱动系统的寿命和自主权。这些挑战可以通过有效实施神经形态芯片上的尖峰神经网络(SNN)以及使用基于事件的摄像机而不是传统基于框架的摄像机来解决这些挑战。在本文中,我们提出了一种新的基于SNN的方法,称为Lanesnn,用于使用基于事件的相机输入来检测街道上标记的车道。我们开发了四种以低复杂性和快速响应为特征的小说SNN模型,并使用离线监督的学习规则训练它们。之后,我们将学习的SNNS模型实施并映射到Intel Loihi神经形态研究芯片上。对于损耗函数,我们基于加权二进制交叉熵(WCE)和均方误差(MSE)度量的线性组成而开发了一种新颖的方法。我们的实验结果表明,与联合(IOU)度量的最大交叉点约为0.62,功耗非常低约1W。最好的IOU是通过SNN实现实现的,该实现仅占据Loihi处理器上的36个神经可孔,同时提供低潜伏期少于8 ms识别图像,从而实现实时性能。我们网络提供的IOU措施与最先进的措施相当,但功率消耗为1W。
translated by 谷歌翻译
在当今智能网络物理系统时代,由于它们在复杂的现实世界应用中的最新性能,深度神经网络(DNN)已无处不在。这些网络的高计算复杂性转化为增加的能源消耗,这是在资源受限系统中部署大型DNN的首要障碍。通过培训后量化实现的定点(FP)实现通常用于减少这些网络的能源消耗。但是,FP中的均匀量化间隔将数据结构的位宽度限制为大值,因为需要以足够的分辨率来表示大多数数字并避免较高的量化误差。在本文中,我们利用了关键见解,即(在大多数情况下)DNN的权重和激活主要集中在零接近零,只有少数几个具有较大的幅度。我们提出了Conlocnn,该框架是通过利用来实现节能低精度深度卷积神经网络推断的框架:(1)重量的不均匀量化,以简化复杂的乘法操作的简化; (2)激活值之间的相关性,可以在低成本的情况下以低成本进行部分补偿,而无需任何运行时开销。为了显着从不均匀的量化中受益,我们还提出了一种新颖的数据表示格式,编码低精度二进制签名数字,以压缩重量的位宽度,同时确保直接使用编码的权重来使用新颖的多重和处理 - 积累(MAC)单元设计。
translated by 谷歌翻译
结肠镜检查的柔性内窥镜由于其固有的复杂性而产生了一些局限性,导致患者不适和缺乏临床医生的直觉。机器人设备和自主控制代表了一种可行的解决方案,以减少内镜医生的工作量和训练时间,同时改善整体程序结果。自主内窥镜控制的先前工作使用启发式政策,将其概括限制在非结构化和高度可变形的结肠环境中,需要频繁进行人类干预。这项工作提出了一种基于图像的内窥镜控制,使用深钢筋学习,称为深度视觉运动控制(DVC),以在结肠道的复杂部分中表现出适应性行为。 DVC学习内窥镜图像与内窥镜的控制信号之间的映射。对20位专家胃肠道内镜医生进行的首次用户研究是为了将其导航性能与使用现实的虚拟模拟器进行比较的DVC策略。结果表明,DVC在几个评估参数上显示出同等的性能,更安全。此外,与最先进的启发式控制政策相比,对20名新手参与者进行了第二次用户研究,以证明人类的监督更容易。对结肠镜检查程序的无缝监督将使干预主义者能够专注于医疗决策,而不是内窥镜的控制问题。
translated by 谷歌翻译
通常向用户提出自动模型选择,以选择用于应用给定回归任务的机器学习模型(或方法)。在本文中,我们表明,组合不同的回归模型比选择单个(“最佳”)回归模型可以产生更好的结果,并概述了一种有效的方法,该方法从异质性回归模型集中获得最佳加权凸线性组合。更具体地说,在本文中,在上一篇论文中使用的启发式权重优化被使用凸二次编程的精确优化算法取代。我们证明了直接配方的二次编程公式和具有加权数据点的配方的凸度。新颖的重量优化不仅(更多)精确,而且更有效。我们在本文中开发的方法是通过github-open源实现和提供的。它们可以在常见的硬件上执行,并提供透明且易于解释的接口。结果表明,该方法在一系列数据集上的表现优于模型选择方法,包括来自药物发现应用程序的混合变量类型的数据集。
translated by 谷歌翻译